查看原文
其他

[IJCAI 2022] C3-STISR: 基于三重线索引导的场景文本图像超分辨率方法(有源码)

孔宇昕 CSIG文档图像分析与识别专委会 2022-12-15
本文简要介绍发表在IJCAI 2022上关于场景文本图像超分辨率的论文《C3-STISR: Scene Text Image Super-resolution with Triple Clues》。这篇文章提出了一种新颖的场景文本图像超分辨率方法C3-STISR,提出联合使用识别、视觉和语言信息等三重线索来指导超分辨率,并为三重模态线索设计了有效的提取和融合机制,以生成全面统一的超分辨率重建信息。与现有方法仅使用识别线索相比,C3-STISR可以在新引入的视觉和语言线索的帮助下,缓解识别线索的不准确和模态不兼容的问题,从而生成更高质量的文本图像。在TextZoom数据集上的大量实验表明,C3-STISR在保真度和识别性能方面均优于SOTA方法。部分代码已开源在https://github.com/zhaominyiz/C3-STISR

一、研究背景



场景文本图像超分辨率(STISR)作为一种重要的图像预处理技术,能够显著降低低分辨率文本图像的识别难度,提升识别模型性能。早期的方法[1-3]将 STISR任务视为一般的超分辨率(SR)问题,仅利用像素级损失函数捕获的像素级信息来恢复 LR 图像,如图1(a)所示。然而,这些方法忽略了文本图像所特有的文本特征信息,因而无法实现最佳的性能。

最新的一些方法[4-7]提出关注图像的文本特征,并利用文本信息来引导高分辨率文本图像的重建,如图1(b)所示。这些方法通常引入额外的识别器,使用识别器的识别结果作为指导超分辨率的线索。例如,[4][5]提出使用一个预训练好的识别网络对所恢复的文本内容进行监督,并通过识别器提供的注意力热图对每个字符进行定位; [6][7]提出使用识别网络输出的文本概率分布作为图像的文本先验知识,更好地对超分过程进行语义指导。尽管上述方法的性能取得了显著提升,但直接使用识别器的反馈仍存在两个问题:1)模态兼容性问题。识别器的输出是概率分布(PD)的形式,它与STISR这一低级的像素级视觉任务有明显的模态差距,因此存在模态兼容性问题。2)不准确。识别器的识别结果通常不准确(CRNN[8]在LR/HR图像的识别准确率仅为26.8%/72.4%),因而会误导后续的超分辨率重建。

因此,基于对现有方法的思考,作者提出了一种新的场景文本图像超分辨率方法C3-STISR。该方法联合使用识别器的反馈、视觉信息和语言信息等三重线索(Triple Clues)来指导超分过程,如图1(c)所示。具体来说,视觉线索是根据识别器预测的文本序列来绘制图像,并从所绘制的文本图像中提取到的图像特征;由于视觉线索与STISR任务更兼容,因此能够得到更好的超分效果(如图1(c)中,由于视觉线索的使用,获得了更清晰的字符“B”)。而语言线索是由预训练好的的语言模型生成的,它能够校正预测的文本(在图1(c)中,“Blrd”被校正为“Bird”)。此外,由于这些线索具有不同的形式,该方法设计了一个线索提取模块以分别提取识别、视觉和语言线索,并设计了一个门控融合模块将三重线索融合为一个综合的、统一的超分辨率重建引导信号

图1 现有场景文本图像超分辨方法的流程图

二、方法和原理简述



C3-STISR的整体网络结构如图2所示,网络由两个主要组件组成:主干网络和线索生成器。具体来说,线索生成器由两个子组件组成:线索提取分支和线索融合分支。线索提取分支以低分辨图像作为输入,并基于识别器的反馈生成三条线索:识别线索、视觉线索和语言线索;然后,线索融合分支融合三条线索以生成用于指导超分辨率的融合线索,即。最后,主干网络以低分辨图像和融合线索作为输入,进行超分辨图像的重建

图2 C3-STISR的整体网络结构

2.1线索生成器

线索生成器进行线索提取可以分为两个步骤:首先利用线索提取分支提取初始的三重跨模态线索,然后利用线索融合分支进行线索融合。

2.1.1 线索提取分支

识别线索提取

首先计算识别线索。其中,代表识别器CRNN[8]所预测的文本概率分布;是一个预处理网络,它将概率分布转换为像素特征图,并通过掩蔽不确定信息来减少预测误差,即。预处理网络由多层转置卷积层和一个可变形时空注意力(DSTA)块[9]组成;DSTA块利用可变形卷积[10]来计算空间注意力图,以掩蔽信息中的不确定性。考虑到识别器的性能会严重影响识别线索,我们采用蒸馏损失来微调识别器R。

视觉线索提取

视觉线索提取器的目标是根据识别器预测的文本序列来绘制图像,并从所绘制的文本图像中提取的图像特征。为此,首先将概率分布解码为文本字符串,然后使用骨架绘制器绘制黑白文本图像。然而,生成的文本图像存在两个缺点:首先,在解码过程中会丢失预置信度,这可能会加剧错误的传播;其次,文本图像是以固定字体在水平方向上生成,而识别线索被插值到像素级,这可能会导致形状错位。因此,作者额外设计了一个处理网络来处理这些问题。具体而言,由一层可变形卷积和一个DSTA块组成,目的是使得识别线索和文本图像对齐。

语言线索提取

语言线索提取器通过语言模型校正识别器输出的概率分布,并输出校正后的概率分布,即。同样,通过蒸馏损失对语言模型[11]进行微调,以适应超分辨率任务。此外,还设计了一个处理网络将校正后的概率分布转换为像素级特征图,即。与类似,由投影网络和DSTA块组成,用于减少误差。

2.1.2线索融合分支

利用线索提取分支,得到识别线索、视觉线索和语言线索,三者均为大小为的像素特征图,然后利用线索融合分支进行线索融合。首先采用几个扩展卷积层来提取它们的特征;然后将这些特征与LR图像在通道维度上进行拼接,并利用一组卷积层生成掩模。在沿着M的第一维度执行Softmax之后,我们得到如下融合线索

2.2主干网络

主干网络包含一个STN网络,和五个改进的TSRN块;主干网络在融合线索的引导下恢复低分辨率图像。并采用L2损失和文本聚焦损失[4]以权衡保真度和识别性能。

三、主要实验结果



作者在TextZoom数据集上对所提出的方法进行了评估,C3-STISR与SOTA方法在CRNN、ASTER、MORAN三种文字识别网络上的识别精度对比如表1所示。可以看到,C3-STISR显著提高了识别精度,例如,将CRNN准确性从48.9%提高到53.7%(增加4.8%)。

表1 TextZoom数据集上的性能(识别准确度)比较

C3-STISR与SOTA方法在图像评测指标PSNR、SSIM上的对比如表2所示,实验结果证明了该方法在保真度方面同样优于现有方法。图3中可视化了一些示例,如图3所示,与其他方法相比,C3-STISR可以更好地恢复模糊像素。

表2 TextZoom数据集上的保真度(PSNR、SSIM)比较

此外,作者还做了很多消融实验以证明各模块设计的有效性,具体实验细节请查阅原论文。

图3 不同STISR方法生成的SR图像和识别结果对比

四、总结和讨论



本文的主要贡献总结如下:1)提出了一种新的场景文本图像超分辨率方法C3-STISR,联合使用识别、视觉和语言线索来指导超分辨率。与现有方法仅使用识别线索相比,C3-STISR可以在新引入的视觉和语言线索的帮助下生成更高质量的文本图像。2)设计了一个强大的线索生成器,以“分而治之“的方式提取三重模式线索,然后将它们聚合为一个综合的、统一的线索以引导超分辨率的重建。3) 在TextZoom数据集进行了广泛的实验,结果表明C3-STISR显著优于现有的方法。

论文地址:https://arxiv.org/abs/2204.14044

开源代码:https://github.com/ zhaominyiz/C3-STISR.

参考文献



[1] Chao Dong, Chen Change Loy, Kaiming He, and Xiaoou Tang. Image super-resolution using deep convolutional networks. TPAMI, 38(2):295–307, 2015.

[2] Yulun Zhang, Kunpeng Li, Kai Li, Lichen Wang, Bineng Zhong, and Yun Fu. Image superresolution using very deep residual channel attention networks. In ECCV, pages 286–301, 2018

[3] Tao Dai, Jianrui Cai, Yongbing Zhang, Shu-Tao Xia, and Lei Zhang. Second-order attention network for single image super-resolution. In CVPR, pages 11065–11074, 2019.

[4] Jingye Chen, Bin Li, and Xiangyang Xue. Scene text telescope: Text-focused scene image super-resolution. In CVPR, pages 12026–12035, 2021.

[5] Jingye Chen, Haiyang Yu, Jianqi Ma, Bin Li, and Xiangyang Xue. Text gestalt: Stroke-aware scene text image super-resolution. In AAAI, pages 285–293, 2022.

[6] Jianqi Ma, Shi Guo, and Lei Zhang. Text prior guided scene text image super-resolution. arXiv preprint arXiv:2106.15368, 2021.

[7] Jianqi Ma, Zhetong Liang, and Lei Zhang. A text attention network for spatial deformation robust scene text image super-resolution. In CVPR, pages 5911–5920, 2022.

[8] Baoguang Shi, Xiang Bai, and Cong Yao. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. TPAMI, 39(11):2298–2304, 2016.

[9] Minyi Zhao, Yi Xu, and Shuigeng Zhou. Recursive fusion and deformable spatiotemporal attention for video compression artifact reduction. In MM, pages 5646–5654, 2021

[10] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, pages 764– 773, 2017.

[11] Shancheng Fang, Hongtao Xie, Yuxin Wang, Zhendong Mao, and Yongdong Zhang. Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition. In CVPR, pages 7098–7107, 2021.


原文作者: Minyi Zhao, Miao Wang, Fan Bai, Bingjia Li, Jie Wang, Shuigeng Zhou

撰稿:孔宇昕

编排:高 学

审校:连宙辉

发布:金连文 




免责声明:
1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

往期精彩内容回顾



欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。



扫码关注,获取最新OCR资讯



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存